在具有连续以对象的状态,连续的动作,长距离和稀疏反馈的机器人环境中,决策是具有挑战性的。诸如任务和运动计划(TAMP)之类的层次结构方法通过将决策分解为两个或更多级别的抽象来解决这些挑战。在给出演示和符号谓词的环境中,先前的工作已经显示了如何通过手动设计的参数化策略来学习符号操作员和神经采样器。我们的主要贡献是一种与操作员和采样器结合使用的参数化策略的方法。这些组件被包装到模块化神经符号技能中,并与搜索 - 然后样本tamp一起测序以解决新任务。在四个机器人域的实验中,我们表明我们的方法 - 具有神经符号技能的双重计划 - 可以解决具有不同初始状态,目标和对象不同的各种任务,表现优于六个基线和消融。视频:https://youtu.be/pbfzp8rpugg代码:https://tinyurl.com/skill-learning
translated by 谷歌翻译